Telegram Group & Telegram Channel
🤔 Что делать, если в небольшом размеченном наборе сильно несбалансированные классы, но среди неразмеченных данных, возможно, есть представители миноритарного класса

Когда классы сильно несбалансированы, модель может вообще не научиться распознавать редкий класс — особенно если в размеченных данных он почти не представлен. Это особенно критично, если модель начинает обучение уже с перекосом в сторону большинства.


🛠 Как с этим справиться

1. Усиливаем вклад миноритарного класса в функцию потерь
Используем взвешивание классов или focal loss, который автоматически усиливает вклад трудных примеров.

2. Применяем регуляризацию на неразмеченных данных
Например, consistency regularization, при которой модель должна давать стабильные предсказания при слабых искажениях входа.

3. Активный отбор редких примеров среди неразмеченного пула
Можно применять кластеризацию и отбирать для разметки точки из «редких» кластеров — это метод active cluster labeling.

4. Анализируем предсказания модели на неразмеченных данных
Если модель слабо уверена в каком-то сегменте — возможно, это и есть миноритарный класс. Такие точки можно приоритизировать для ручной разметки.

Библиотека собеса по Data Science



tg-me.com/ds_interview_lib/985
Create:
Last Update:

🤔 Что делать, если в небольшом размеченном наборе сильно несбалансированные классы, но среди неразмеченных данных, возможно, есть представители миноритарного класса

Когда классы сильно несбалансированы, модель может вообще не научиться распознавать редкий класс — особенно если в размеченных данных он почти не представлен. Это особенно критично, если модель начинает обучение уже с перекосом в сторону большинства.


🛠 Как с этим справиться

1. Усиливаем вклад миноритарного класса в функцию потерь
Используем взвешивание классов или focal loss, который автоматически усиливает вклад трудных примеров.

2. Применяем регуляризацию на неразмеченных данных
Например, consistency regularization, при которой модель должна давать стабильные предсказания при слабых искажениях входа.

3. Активный отбор редких примеров среди неразмеченного пула
Можно применять кластеризацию и отбирать для разметки точки из «редких» кластеров — это метод active cluster labeling.

4. Анализируем предсказания модели на неразмеченных данных
Если модель слабо уверена в каком-то сегменте — возможно, это и есть миноритарный класс. Такие точки можно приоритизировать для ручной разметки.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/985

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

What is Secret Chats of Telegram

Secret Chats are one of the service’s additional security features; it allows messages to be sent with client-to-client encryption. This setup means that, unlike regular messages, these secret messages can only be accessed from the device’s that initiated and accepted the chat. Additionally, Telegram notes that secret chats leave no trace on the company’s services and offer a self-destruct timer.

How to Invest in Bitcoin?

Like a stock, you can buy and hold Bitcoin as an investment. You can even now do so in special retirement accounts called Bitcoin IRAs. No matter where you choose to hold your Bitcoin, people’s philosophies on how to invest it vary: Some buy and hold long term, some buy and aim to sell after a price rally, and others bet on its price decreasing. Bitcoin’s price over time has experienced big price swings, going as low as $5,165 and as high as $28,990 in 2020 alone. “I think in some places, people might be using Bitcoin to pay for things, but the truth is that it’s an asset that looks like it’s going to be increasing in value relatively quickly for some time,” Marquez says. “So why would you sell something that’s going to be worth so much more next year than it is today? The majority of people that hold it are long-term investors.”

Библиотека собеса по Data Science | вопросы с собеседований from it


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA